智能论文笔记

ACLNet: An Attention and Clustering-based Cloud Segmentation Network

Dhruv Makwana , Subhrajit Nag , Onkar Susladkar , Gayatri Deshmukh , Sai Chandra Teja R , Sparsh Mittal , C Krishna Mohan

分类：计算机视觉 | 人工智能

2022-07-13

我们提出了一种名为ACLNET的新型深度学习模型，用于从地面图像中分割云。ACLNET同时使用深神经网络和机器学习（ML）算法来提取互补功能。具体而言，它使用有效网络-B0作为骨干，“``trous tos blacial pyramid boming''（ASPP）在多个接受场上学习，并从图像中提取细节细节。ACLNET还使用K-均值聚类来更精确地提取云边界。ACLNET对白天和夜间图像都有效。它提供的错误率较低，较高的召回率和更高的F1得分比Art最先进的云分割模型。ACLNET的源代码可在此处获得：https：//github.com/ckmvigil/aclnet。

translated by 谷歌翻译

ComplETR: Reducing the cost of annotations for object detection in dense scenes with vision transformers

Achin Jain , Kibok Lee , Gurumurthy Swaminathan , Hao Yang , Bernt Schiele , Avinash Ravichandran , Onkar Dabeer

分类：计算机视觉

2022-09-13

用于对象检测的注释边界框很昂贵，耗时且容易出错。在这项工作中，我们提出了一个基于DITR的框架，该框架旨在在部分注释的密集场景数据集中明确完成丢失的注释。这减少了注释场景中的每个对象实例，从而降低注释成本。完成DETR解码器中的对象查询，并使用图像中对象的补丁信息。结合匹配损失，它可以有效地找到与输入补丁相似的对象并完成丢失的注释。我们表明，我们的框架优于最先进的方法，例如软采样和公正的老师，同时可以与这些方法一起使用以进一步提高其性能。我们的框架对下游对象探测器的选择也不可知。我们显示了多个流行探测器的性能改进，例如在多个密集的场景数据集中更快的R-CNN，CASCADE R-CNN，CENTERNET2和可变形的DETR。

translated by 谷歌翻译

SPot-the-Difference Self-Supervised Pre-training for Anomaly Detection and Segmentation

Yang Zou , Jongheon Jeong , Latha Pemula , Dongqing Zhang , Onkar Dabeer

分类：计算机视觉

2022-07-28

视觉异常检测通常用于工业质量检查。在本文中，我们提出了一个新的数据集以及一种新的自我监督学习方法，用于ImageNet预训练，以改善1级和2级和2级5/10/高光训练设置的异常检测和细分。我们释放视觉异常（Visa）数据集，该数据集由10,821个高分辨率颜色图像（9,621个正常和1200个异常样品）组成，涵盖了3个域中的12个对象，使其成为迄今为止最大的工业异常检测数据集。提供了图像和像素级标签。我们还提出了一个新的自我监督框架 - 斑点差异（SPD），该框架可以使对比度的自我监督预训练（例如Simsiam，Moco和Simclr）更适合异常检测任务。我们在Visa和MVTEC-AD数据集上进行的实验表明，SPD始终改善这些对比的训练前基准，甚至是受监督的预训练。例如，SPD在Precision-Recall曲线（AU-PR）下改善了SIMSIAM比SIMSIAM的异常分割的面积，分别为6.8％，并分别监督了2级高弹药机制的预训练。我们通过http://github.com/amazon-research/spot-diff开放项目。

translated by 谷歌翻译

Rethinking Few-Shot Object Detection on a Multi-Domain Benchmark

Kibok Lee , Hao Yang , Satyaki Chakraborty , Zhaowei Cai , Gurumurthy Swaminathan , Avinash Ravichandran , Onkar Dabeer

分类：计算机视觉

2022-07-22

大多数现有的作品在少数拍摄对象检测（FSOD）上的工作重点是从类似域中进行预训练和几乎没有弹出的学习数据集的设置。但是，在多个域中，很少有射击算法很重要。因此，评估需要反映广泛的应用。我们提出了一个多域数少数对象检测（MOFSOD）基准，该基准由来自各个域的10个数据集组成，以评估FSOD算法。我们全面分析了冷冻层，不同的体系结构和不同的预训练数据集对FSOD性能的影响。我们的经验结果表明，以前的作品中尚未探索过的几个关键因素：1）与以前的信念相反，在多域基准测试中，微调（FT）是FSOD的强大基线，在PAR上表现或更好最先进的（SOTA）算法； 2）利用FT作为基线使我们能够探索多个体系结构，我们发现它们对下游的几杆任务产生重大影响，即使具有类似的训练性能； 3）通过取消预训练和几乎没有学习的学习，MOFSOD使我们能够探索不同的预训练数据集的影响，并且正确的选择可以显着提高下游任务的性能。基于这些发现，我们列出了可能提高FSOD性能的调查途径，并对现有算法进行了两次简单修改，这些算法导致MOFSOD基准上的SOTA性能。该代码可在https://github.com/amazon-research/few-shot-object-detection-benchmark上获得。

translated by 谷歌翻译

Benchmarking Quality-Dependent and Cost-Sensitive Score-Level Multimodal Biometric Fusion Algorithms

Norman Poh , Thirimachos Bourlai , Josef Kittler , Lorene Allano , Fernando Alonso-Fernandez , Onkar Ambekar , John Baker , Bernadette Dorizzi , Omolara Fatukasi , Julian Fierrez

分类：计算机视觉

2021-11-17

通过生物手段自动验证一个人的身份是在每天的日常活动，如在机场访问银行服务和安全控制的一个重要应用。为了提高系统的可靠性，通常使用几个生物识别设备。这种组合系统被称为多模式生物测定系统。本文报道生物安全DS2（访问控制）评估由英国萨里大学举办的活动，包括面部，指纹和虹膜的个人认证生物特征的框架内进行基准研究，在媒体针对物理访问控制中的应用-size建立一些500人。虽然多峰生物测定是公调查对象，不存在基准融合算法的比较。朝着这个目标努力，我们设计了两组实验：质量依赖性和成本敏感的评估。质量依赖性评价旨在评估融合算法如何可以在变化的原始图像的质量主要是由于设备的变化来执行。在对成本敏感的评价，另一方面，研究了一种融合算法可以如何执行给定的受限的计算和在软件和硬件故障的存在，从而导致错误，例如失败到获取和失败到匹配。由于多个捕捉设备可用，融合算法应该能够处理这种非理想但仍然真实的场景。在这两种评价中，各融合算法被提供有从每个生物统计比较子系统以及两个模板和查询数据的质量度量得分。在活动的号召的响应证明是非常令人鼓舞的，与提交22个融合系统。据我们所知，这是第一次尝试基准品质为基础多模态融合算法。

translated by 谷歌翻译

Analyzing Architectures for Neural Machine Translation Using Low Computational Resources

Aditya Mandke , Onkar Litake , Dipali Kadam

分类：自然语言处理

2021-11-06

随着自然语言处理领域的最新发展，在使用不同架构的神经机翻译中的使用情况上升了。变压器架构用于实现最先进的准确性，但它们是训练的非常昂贵的昂贵。每个人都不能拥有由高端GPU和其他资源组成的等待。我们在低计算资源上培训我们的模型，并调查结果。正如预期的那样，变形金刚表现出其他架构，但结果有一些令人惊讶的结果。由更多编码器和解码器组成的变形金刚需要花更多的时间来训练，但有更少的BLEU分数。LSTM在实验中表现良好，比较少花时间训练而不是变压器，适合在具有时间限制的情况下使用。

translated by 谷歌翻译